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Wizualizować potrafi każdy. Czy jednak robi to poprawnie? 


Streszczenie: Artykuł może posłużyć jako krótki przewodnik w rozwiązaniu problemu doboru wykresu do danych. 
W opracowaniu omówione zostały błędy popełniane przez projektantów wykresów, rozrysowano przykłady oraz do- 
konano ich kategoryzacji. Rozważono również dwa podejścia w wizualizacji informacji ze względu na oczekiwania od- 
biorców: statystyczne i dizajnerskie. Poza tym czytelnicy znajdą odniesienia do zasobów sieciowych i literatury, przy- 
datnych w stawianiu pierwszych kroków w poprawnej wizualizacji informacji. 


Słowa kluczowe: wizualizacja danych, wykresy z błędami, infografiki, dziennikarstwo danych 


Tytuł artykułu celowo nawiązuje do skutku ubocznego „ekspresowej” wizualizacji danych, czynno- 
ści stosunkowo łatwej dzięki wielu udogodnieniom wprowadzonym przez Microsoft w ostatnich 
wersjach Excelat. Czynność ta sprowadza się do zaznaczenia roboczego zakresu komórek danych 
i wyboru typu wykresu. Ten wybór właśnie jest pierwszym i najważniejszym krokiem, prowadzą- 
cym do generowania poprawnych wizualizacji. Powinien być przemyślany, czyli oparty na gotowej 
koncepcji (zanim klikniemy „Wstaw wykres”, musimy wiedzieć, co uzyskamy w efekcie) i elemen- 
tarnej wiedzy z zakresu statystyki, na co się składają takie pojęcia, jak: osie, zmienne, skale, śred- 
nia, odchylenie, mediana. Następna niezbędna porcja wiedzy dotyczy problematyki wizualizacji. 
„Jaki typ wykresu pasuje do moich danych?” — często pada pytanie początkującego wizualizatora — 
nazwijmy tak osobę, która skupia się na tworzeniu użytecznych oraz ładnych wykresów i infografik 
oraz która czerpie satysfakcję z takiej pracy, co być może w niedalekiej przyszłości uformuje spe- 
cjalizację w obrębie data science. 


W odpowiedzi skieruję uwagę czytelnika do bardzo użytecznego poradnika w formie grafiki, które- 
go autorem jest Andrew Abela, a modyfikacji dokonał Doug Hull (rys. 1)?. Wynika z niego, że do- 
wolny cel analizy można rozpatrywać w jednej z czterech kategorii: porównanie, rozkład, zesta- 
wienie i relacje. 


t W podobny sposób tworzymy wykresy w Office 365, Arkuszach Google'a i in. systemach opartych na Windowsie. 
2 HULL, D. Flow chart shows which visualization to use. W: Stuart's MATLAB Videos [online]. MathWorks, 16.01. 2009. 


[Dostęp 20.04.2021]. Dostępny w: https://blogs.mathworks.com/videos/2009/01/16/flow-chart-shows-which- 


visualization-to-use/. 
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Rys. 1. Poradnik „który wykres wybrać?” 
Źródło: HULL, D., dz. cyt. 


Do porównywania różnych serii danych albo danych względem czasu najczęściej wybieramy wy- 
kres słupkowy, liniowy i radarowy. Ten ostatni można zaimplementować na przykład do prezenta- 
cji wyników ankiet. 


Należy zwrócić uwagę nato, że licznych serii danych obserwator nie daje rady wizualnie porównać. 
Chociaż ten próg zdolności percepcyjnej zależy od wielu czynników, m.in.: kolorów, szerokości, 
odstępu pomiędzy słupkami, to w ogólnym ujęciu nie powinno się przekraczać więcej niż pięć 
zmiennych do porównania. W zadaniu zestawienia pokazujemy wartości składowych elementów 
względem całości. Najlepiej wtedy użyć procentowej skali i wykresu kołowego lub map drzewia- 
stych (ang. treemap”). Nie powinno się takich wizualizacji implementować w przypadkach bardzo 
małych i bardzo dużych wartości elementów składowych. Rozkład za pomocą histogramu pokazuje 
zależność częstościową występowania obserwowanej zmiennej. Na przykład, jeśli mierzymy roz- 
kład ocen w grupie uczniów, to najwięcej ocen przypadnie w obrębie średniej wartości — w tym 
punkcie słupek histogramu będzie najwyższy. W idealnym przypadku histogram będzie symetrycz- 
ny — w klasie o wyrównanym poziomie, a obwiednia histogramu reprezentować będzie klasyczną 


3 Dobry wyjaśniający przykład radarowego wykresu można obejrzeć tu: Why And When To Use A Spider And Radar 
Chart? [online]. [Dostęp 6.04.2021]. Dostępny w: https://www.pluscharts.com/why-and-when-to-use-spider-and- 


radar-chart/. 
4 Treemap — metoda wizualizacji hierarchicznych struktur, gdzie podział rekurencyjny zewnętrznego prostokąta na 
mniejsze wewnętrzne określa ilościowe relacje zbioru i podzbiorów. 
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krzywą Gausa. Można obserwować także rozkłady dwóch zmiennych względem siebie — taki obraz 
dają wykresy punktowe, tzw. skatery (ang. scatter). Mówimy w tym przypadku o badaniu relacji 
pomiędzy danymi — ostatniej kategorii na rys . 1. Wzajemne ułożenia punktów (na skaterach) albo 
bąbelków (na wykresach bąbelkowych), wzorce skupisk mogą mówić bardzo wiele o naturze da- 
nych i ich strukturze. Takie wykresy najczęściej powstają w laboratoriach pomiarowych, gdzie się 
gromadzą duże ilości danych. Wykresy bąbelkowe są ostatnio bardzo popularne — o tym świadczy 
na przykład rozwój portalu Gapminder, za pomocą którego możemy analizować społeczno- 
ekonomiczne procesy w skali całego świata w ciągu ostatnich 200 lat. Jednak są to wizualizacje 
mocno problematyczne w odbiorze, ponieważ przeciętny użytkownik ma problem z oszacowaniem 
na oko pola powierzchni takiego bąbelka, żeby móc porównać kilka wartości naraz. Warto odno- 
tować, że w części pierwszej publikacji omawiamy wykresy podstawowe, które możemy stworzyć 
w dowolnym programie do wizualizacji. Trzy z wymienionych: kołowy, liniowy i słupkowy stanowią 
najstarsze historycznie udokumentowane wykresy, zwane playfairowskimi od nazwiska twórcy 
Williama Playfaira”. Są one najłatwiej interpretowanymi wizualizacjami w oczach odbiorców i stąd 
tak popularne. 


Wiedza z podstaw statystyki i biegłość w wyborze odpowiedniego wykresu nie chronią jednak 
przed popełnieniem błędów w wizualizowaniu danych. Temat niewłaściwych, pomyłkowych wy- 
kresów (ang. misleading charts) stał się obecnie bardzo popularny w mediach. W sieci można zna- 
leźć portale i grupy na Facebooku poświęcone analizie znalezionych błędów na wykresach”, a takie 
przykłady najczęściej dostarczają użytkownicy. Każdego roku ogłaszany jest konkurs na najgorszy 
wykres znaleziony w sieci. Jest to niejako przeciwstawna akcja w odpowiedzi na publikowanie naj- 
lepszych, najatrakcyjniejszych, inspirujących do badań wizualizacji na portalach, takich jak: Flo- 
wingData lub Information is Beautful. Skąd pochodzą takie przykłady? Najczęściej z oficjalnych 
materiałów prasowych, raportów urzędowych czy infografik podawanych na blogach i w mediach 
społecznościowych. 


Na moich zajęciach „wizualizacja informacji” studenci zazwyczaj otrzymują takie zadanie, jak odna- 
lezienie w sieci przykładów wykresów z rozmaitymi błędami, po czym mają je skorygować. Idąc na 
skróty, młodzi ludzie w pierwszej kolejności korzystają bezpośrednio z dedykowanych danej pro- 
blematyce portali, na których każdy przykład szczegółowo już został przeanalizowany. Takiej „kwe- 
rendy” nie zaliczam, a kieruję ich na materiały drukowane, wymagające więcej wysiłku w poszuki- 
waniach i spostrzegawczości: gazety, czasopisma, ulotki, biuletyny, jak również samodzielnej ewa- 
luacji. Studenci ostatnio sięgnęli po podręczniki szkolne i niedługo być może będzie okazja zrela- 
cjonowania ciekawych wyników na łamach EBIB-u. Nikt natomiast ze studentów nie „odważył się” 
na pobranie materiału z publikacji naukowych. A szkoda, bo z pewnością kryje się tam duża liczba 
niepoprawnie wykonanych wizualizacji. | można się spodziewać, że ta liczba będzie zależeć od dys- 
cypliny, wydawnictwa, a szczególnie roku publikacji, ponieważ jak obserwujemy, statystyczne 
kompetencje przedstawicieli wszystkich nauk w ogólnym zakresie poszerzają się. Prześledzenie 
takich zależności i przypadków występowania błędów w raportowaniu wyników w dokumentach 
naukowych to osobny, ciekawy temat do badań. 


5 OSIŃSKA, V. WlZualizacja INFOrmacji. Perspektywa informatologiczna. Toruń: Wydaw. UMK, 2016. ISBN 
9788323135814. 


6 Np. SmarterPoland.pl. 
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Problematykę wykresów wprowadzających odbiorców w błąd pierwszy podjął Edward Tufte, amery- 
kański statystyk, autor bestsellera The Visual Display of Quantitative Information z roku 1983. Zdefi- 
niował on tzw. wykresy zaśmiecone (ang. chartjunks), czyli takie, które zawierają elementy odwraca- 
jące uwagę widza od istotnych informacji przedstawionych na wykresie. Jego śladem współcześni 
badacze tworzą definicje błędnych wykresów, wynajdując nowe kategorie. Tak Claus Wilke oprócz 
zaśmieconych wprowadza pojęcia wykresów złych (czyli niejasnych, mylących) i brzydkich (z wadami 
estetycznymi)”. Okazuje się, że problem błędnych wizualizacji jest powszechny i globalny — czego do- 
wodzą rozmaite przykłady w sieci, jak również ostatnia książka znakomitego dziennikarza danych Al- 
berto Cairo How Charts Lie z roku 2020. Prowadzi on również warty polecenia blog z wartościowymi 
zasobami edukacyjnymi?. 


W obliczu różnorodności i nieskończonej listy zdiagnozowanych dotychczas błędów spróbujmy po- 
grupować je na kilka kategorii. Rozróżnimy zatem następujące grupy: 

1. Błędy natury matematycznej, czyli związane z niepoprawnym odwzorowaniem relacji ilościo- 
wych danych na przestrzeń wykresu. Z pewnością są to wykresy 3D, których nie powinno się 
używać, w szczególności w pracach naukowych (1 na rys. 2). Powodem są przekłamania w od- 
czycie prawidłowych wartości, ponieważ geometria trzeciego wymiaru zniekształca rzeczywi- 
ste proporcje. Dobrym przykładem są trójwymiarowe kołowe wykresy: różnica pola po- 
wierzchni, łuku czy kątów segmentów na pierwszym planie i z tyłu na pewno nie odpowiada 
danym źródłowym (2). Innym błędem tego rodzaju jest niewłaściwie użyta skala, na przykład 
pominięcie punktu O (3), nieproporcjonalnie rozciągnięta oś Y lub oś X. Nader często występu- 
je błąd przyciętych słupków, przez co stosunek ich długości lub wysokości nie odpowiada rze- 
czywistości (4). Ten tzw. cut bars jest pochodną braku punktu O. Zdarzają się też błędy poli- 
czenia proporcji, kiedy suma wartości poszczególnych segmentów nie jest 100% (5). 

2. Błędy percepcyjne powstają w sytuacji, kiedy zwizualizowane dane powodują u odbiorców 
problemy natury kognitywno-percepcyjnej, lecz od strony matematycznej są odwzorowane 
poprawnie. Najwięcej przykładów znajdziemy na wykresach bąbelkowych lub na wykresach 
z umieszczonymi symbolami, których rozmiar jest skalowany adekwatnie do reprezentowa- 
nych danych (6). Obserwator natomiast szacuje wielkość takiej figury nie według jednego 
wymiaru (na przykład wysokości), lecz pola powierzchni, która się przelicza jako kwadrat sze- 
rokości (w przypadku kształtów kulistych) i stąd nadinterpretuje realną wartość danych. Nad- 
miarowa liczba prezentowanych serii (7), dwie osie pionowe zamiast jednej (8), nieczytelne 
etykiety również są źródłem błędnego postrzegania danych. Błędy tego rodzaju powstają tak- 
że przy manipulowaniu atrybutami wykresu: kolorem, kontrastem (9), gradientem jasności, 
kształtami glifów, siatkami, dodatkowym podziałem przestrzeni i tłem. Skieruję czytelnika 
w tym miejscu do lektury o podstawowych zmiennych wizualnych odkrytych przez Jacka Ber- 
tina? w roku 1967. 

3. Błędy zaburzonej estetyki są bardzo ważne z punktu widzenia dzisiejszego odbiorcy, który ma 
obecnie wygórowane potrzeby estetyczne. Na błędy składają się m.in.: nieharmonijna kolory- 
styka, brzydka czcionka, źle dobrane — wzorzyste tło (9), wypełnienie obiektów czy glifów, 
brak zachowania stylu. 


7 WILKE, C.O. Podstawy wizualizacji danych. Zasady tworzenia atrakcyjnych wykresów. Gliwice: Helion, 2020. ISBN 
9788328361263. 
8 CAIRO. Alberto Cairo's website about information design and data visualization [online]. [Dostęp 6.04.2021]. 


Dostępny w: http://albertocairo.com. 
3 OSIŃSKA, V., dz. cyt. 
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Rys. 2. Najczęściej występujące błędy wykresów z odniesieniem w tekście 
Źródło: opracowanie własne. 


Kwestia estetyki w wizualizacjach, w szczególności jej ewaluacja i ramy wywołują szeroką dyskusję 
w gronie miłośników wizualnych form informacji. Jedni przekonują, że celem podstawowym wy- 
kresu ma być użyteczność, jednocześnie odrzucając walor artystyczny. Inni dowodzą, że wizualiza- 
cja powinna być traktowana w kategorii sztuki. Jeszcze inni twierdzą, że powinno się uwzględnić 
adresatów wizualizacji: artyści według nich potrzebują wymyślnych awangardowych form wizual- 
nych, okraszając je ozdobnikami oraz dodatkowym podkładem kontekstowym, podczas gdy nau- 
kowcy zadowalają się sztywnymi czarno-białymi wykresami, grafami i mapami. Nazwijmy pierwsze 
podejście dizajnerskim, a drugie — statystycznym. Według tej koncepcji podejście statystyczne 
prowadzi do wizualizowania faktów i zjawisk prosto i zrozumiale, według standardów i schematów 
i raczej bez użycia metafor. Podążając tym tokiem myślenia, w podejściu dizajnerskim, gdzie naj- 
ważniejszym jest zakomunikowanie informacji dla szerokiej publiczności, błędy wykresów znie- 
kształcające prezentowane dane nie są aż tak istotne. Wbrew temu, co twierdzą niektórzy prakty- 
cy, może raczej dla swojej wygody, oba podejścia nie wykluczają się wzajemnie. Warto wymienić 
tu opinię Alberto Cairo, który przekonuje w swoim poprzednim bestsellerze The Functional Art”, 
że dwie podstawowe cechy wizualizacji, jak funkcjonalność i estetyka da się pogodzić i zintegro- 
wać, jeśli będziemy się trzymać pewnych zasad. Udowodnia to za pomocą licznych przykładów, 
zaawansowanych infografik, bogatych w treść i formę". Według autora granica między wykresami 
a infografikami jest sztuczna i niepotrzebnie wielu badaczy oraz praktyków ją akcentuje. 


Rozważmy zatem punkt widzenia praktyka, a dokładnie jego warsztat do projektowania infografik. 
Infografikę określimy jako grafikę z zawartą historią, opowiedzianą przez autora subiektywnie. To 
właśnie subiektywność zwolennicy podziału wybierają za główny argument w zestawieniu z obiek- 


10 Zob. CAIRO, A. The functional art : an introduction to information graphics and visualization. Berkeley, California: 
New Riders, 2013. ISBN 9780321834737. 

11 Dostępne są one na stronie blogu CAIRO: Download three chapters of The Functional Art. W: CAIRO. Alberto Cairo's 
a weblog about information design and visualization [online]. 6.09.2012. [Dostęp 6.04.2021]. Dostępny w: 
http://www.thefunctionalart.com/2012/09/download-three-chapters-of-functional.html. 
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tywnością wizualizacji, która dąży do przedstawienia całościowego zbioru danych pochodzących 
z niezależnych obserwacji. Natomiast sposób prezentacji (kolor, glify, przestrzeń) może być wybra- 
ny dowolnie przez projektanta wykresu. W przypadku big data są to algorytmy klasteryzacji lub 
layouty grafowe”*. Czyli konfrontacja: subiektywizm infografik wobec obiektywizmu wykresów nie 
zdaje egzaminu. Innym argumentem jest to, że infografiki, tworzy się szybko i służą one do pobież- 
nej prezentacji problemu. Dzięki całej serii dostępnych aplikacji sieciowych wymagających zalogo- 
wania się przez konto mediów społecznościowych, projektanci nieodpłatnie skorzystają z szablo- 
nów o mocno rozpiętej tematyce, na przykład: Infogram, Visually, Canva, Piktochart. Nie ma nic 
skomplikowanego w stworzeniu materiałów graficznych na bloga czy Facebooka, życiorysu w for- 
mie infografiki, prezentacji albo ulotki. Szablony do raportów, wykresów i map są osobną kategorią 
wymagającą edytowania danych w tabeli na podobnej zasadzie co w arkuszu kalkulacyjnym. Oferu- 
ją jednak mocno okrojone podstawowe funkcje w operowaniu i zarządzaniu danymi (operacje na 
kolumnach, transpozycje, usuwanie wierszy i kolumn) w porównaniu do podobnych narzędzi de- 
dykowanych tylko wykresom, takich jak np.: Plotly, Flourish, RAWGraphs. Przy użyciu wymienio- 
nych narzędzi do infografik nie stworzymy zaawansowanych wykresów, szczególnie tych opartych 
na big data, wymagających specjalistycznego opracowania, etykietowania i nietypowej konfigura- 
cji. W tej konkluzji chcę podkreślić nie różnicę pomiędzy dwoma formami wizualizacji informacji, 
lecz potrzebę operowania szerokim wachlarzem współczesnych narzędzi, zaczynając od Excela czy 
OpenCalc poprzez szereg webowych platform, kończąc na edytorach do grafiki wektorowej, np. 
Inkscape. W swej naturze bowiem wykres, mapa i diagram powstają poprzez kreślenie, rysowanie, 
obrysowywanie, a zatem mają to być obrazy wektorowe. 


Znamienne jest to, że dziennikarze już dawno zrozumieli wagę wizualizacji informacji w tworzeniu 
przekazu medialnego. Od blisko dekady istnieje nowy gatunek dziennikarstwa — dziennikarstwa 
opartego na danych (ang. data journalism). Łączy w sobie m.in. takie działania, jak: zbieranie i ana- 
lizę informacji, pobieranie danych z internetu, ich zaawansowane przetwarzanie i wizualizację. 
Dziennikarz danych nie może sobie pozwolić na nierzetelny wykres. Z drugiej strony zależy mu na 
atrakcyjnej prezentacji analizowanego tematu dla odbiorców. Widzimy zatem, że łączenie obu kry- 
teriów: funkcjonalności i estetyki w praktyce jak najbardziej jest możliwe, czego dowodzi nowa 
specjalność dziennikarstwa, która w Polsce jest dopiero w zalążku. Pomimo że na uczelniach świa- 
towych, przeważnie w Stanach Zjednoczonych kierunki dziennikarstwa danych otworzono siedem 
lat temu, to na polskich uczelniach wciąż brakuje takiej oferty. Pocieszające jest, że można zaob- 
serwować pierwsze opracowania na ten temat, takie jak prace doktorskie, magisterskie i licencjac- 
kie. 


Wydaje się, że może to być ostatni dzwonek dla bibliotekarzy, specjalistów informacji oraz biblio- 
i informatologów, aby zwrócić należną uwagę na prezentowanie danych w kontekście poprawnych 
wizualizacji wyników. Tak gwałtownie poszukiwany obecnie na rynku specjalista data science musi 
mieć bardzo wyraźne kwalifikacje w zakresie wizualizacji danych. Powiązanie i potencjał data 
science w odniesieniu do nauk o informacji dostrzeżono w gronie informatologów"* światowych 


12 OSIŃSKA V. Mapy nauki. Badania, potencjał i wyzwania w przykładach. UMK, 2021 (w druku). 

13 MARCHIONINI, G. Information Science Roles in the Emerging Field of Data Science. Journal of Data and Information 
Science [online]. 2016 Vol. 1, No 2, s. 1-6. [Dostęp 6.04.2021]. ISSN 2096-157X. Dostępny w: 
https://doi.org/10.20309/jdis.201609. 
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już kilka lat wcześniej, zapowiadając nawet nową specjalizację — bibliotekarstwo danych”*. W tych 
trendach i prognozach należy pamiętać o tym, że dane, big data zawsze będą wymagały fachowej 
wizualizacji. 


Informatolodzy i bibliotekarze dbają dzisiaj o jakość informacji wykorzystywanej w systemie nauki, 
a prawdopodobnie wkrótce będą musieli nauczyć się ewaluować jakość danych. A jakość danych 
włącza także jakość materiału wizualnego. A zatem podwyższenie kompetencji w zakresie posługi- 
wania językiem wizualnym w środowisku biblio- i informatologów ma sens i wydaje się uzasadnio- 
ne. W swojej historii bibliotekarze udowodnili, że potrafią właściwie i skutecznie zaopiekować się 
inicjatywami na rzecz edukacji społeczeństwa, nauki czy kultury otwartej. Dlatego jeśli zabierają się 
za akcję szkoleniową w obszarze szeroko rozumianej wizualizacji informacji, to jestem spokojna. 
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